#corrección de desviaciones

Destilación on-policy con guía de trayectorias futuras

Mejora el razonamiento de LLMs con TOPD: destilación on-policy con guía futura aumenta precisión del 47.8% al 52.2%.